محمدرضا اصغری اسکوئی؛ فرهاد فلاحی؛ میثم دوستیزاده؛ سعید مشیری
چکیده
مطالعات اخیر بازارهای عمدهفروشی برق عموماً براساس مدلهای چندعاملی است، که در آنها تعادل بازار برپایه رقابت و تعامل عوامل متعدد با یک دیگر به دست میآید. از ویژگیهای اصلی این نوع مدلها، امکان یادگیری عوامل از نتایج رفتار خود و سایرین دریک محیط رقابتی است. در بازار عمدهفروشی برق، هرعامل یک واحد تولیدکننده برق است که به صورت ...
بیشتر
مطالعات اخیر بازارهای عمدهفروشی برق عموماً براساس مدلهای چندعاملی است، که در آنها تعادل بازار برپایه رقابت و تعامل عوامل متعدد با یک دیگر به دست میآید. از ویژگیهای اصلی این نوع مدلها، امکان یادگیری عوامل از نتایج رفتار خود و سایرین دریک محیط رقابتی است. در بازار عمدهفروشی برق، هرعامل یک واحد تولیدکننده برق است که به صورت مستقل و هوشمند با سایر عاملها برای عرضه برق با قیمتهای پیشنهادی رقابت میکند. فرآیند قیمتگذاری را میتوان یک بازی ایستا فرض نمود که هرروز تکرار میشود. در این بازی هر عامل قیمت پیشنهادی خود را مستقلا اعلام نموده و بهرهبردار با توجه به تقاضای بار مصرفی و محدودیتها، بهترین پیشنهادها را انتخاب مینماید. عامل به صورت عقلائی عمل نموده و با انتخاب استراتژی مناسب، به دنبال بیشینه نمودن سود بلندمدت خود است. در این راستا، عامل از قدرت یادگیری و بهبود استراتژی قیمتگذاری، که نقش بسیار تعیین کننده در موفقیت عامل دارد، استفاده میکند. یادگیری تقویتی یک روش کلاسیک است که در مدلهای چندعاملی امکان یادگیری مبتنی بر سعی و خطا را فراهم مینماید. هدف این مقاله کاربرد و مطالعه روشهای یادگیری تقویتی در مدل چندعاملی بازار برق ایران و مقایسه آنها با دو استراتژی تصادفی و حریصانه است. در این مطالعه، میزان سود واحدها و زمان رسیدن به حالت تعادل به عنوان ملاک ارزیابی در نظر گرفته شده است. نتایج شبیه سازی نشان میدهد، استراتژی یادگیرنده سود عاملها را به طور معناداری افزایش میدهد و سرعت همگرائی به حالت تعادل را بیشتر میکند.